Byte Pair Encoding (BPE)
Neural Machine Translation of Rare Words with Subword Units (2015) で提案(積ん読)
https://arxiv.org/abs/1508.07909
https://aclanthology.org/P16-1162/
data2vec、どうやってloadするのか
で
Data2VecTextModel.from_pretrained
して得られた
GeneratorHubInterface
で見た
https://github.com/pytorch/fairseq/blob/11b2830d29aed8043e5011d64e14004347a08b50/fairseq/hub_utils.py#L234-L237
tokenizeしたあと、apply_bpeしている